python 脚本：拆分txt文件

最新推荐文章于 2024-09-07 14:43:33 发布

yspg_217

最新推荐文章于 2024-09-07 14:43:33 发布

阅读量3.3k

点赞数 4

分类专栏： python 脚本文章标签：开发语言 python

本文链接：https://blog.csdn.net/yspg_217/article/details/123354222

版权

python 脚本专栏收录该内容

1 篇文章 0 订阅

订阅专栏

该博客介绍了一个使用Python解决大CSV文件无法用Excel打开的问题。通过编写脚本，将百万行级别的txt文件拆分成多个小文件，便于对数据进行操作。脚本利用`with open`读取文件，计算总行数，设定每份新文件的行数，并按此逻辑遍历写入新文件。这是一个关于文件处理和Python编程的实例。

摘要由CSDN通过智能技术生成

前提：最近朋友遇到个问题，csv文件行数太多，导致用 excel 打开文件都费劲，他把内容放到了 txt 文件中，希望能找个工具把这个大文件（百万行的量级）拆成若干个小文件，便于对里边的数据进行操作。但是并没有找到现成的工具，希望我帮忙写个 python 脚本。这个练手机会可不能放过。

分析：拿到这个需求之后，我立刻想到了文件读取神器：with open ... as f，用来读取文件和写入新文件。那么就只剩中间的一点逻辑了。逻辑其实也不难，拿到文件总行数，设定一个每个新文件的行数，这样做个除法就有了新文件的个数。接着以新文件个数为次数进行遍历，每个文件内再以行数进行遍历，写入数据，整个功能就完成了。

下面是源代码：

def split():
    # 读取源文件，文件名最好加上绝对路径
    with open('test.txt', 'r') as f:
        # 把数据写入列表
        wordlist = f.readlines()
        # 算出总行数
        length = len(wordlist)
    # 设置每个拆分文件的行数
    unit = 900000
    # 计算新文件的个数，如果总行数整除新文件行数，就取这个商的值，如果不整除，取商加1的值
    file_amount = length // unit + 1 if length % unit > 0 else length // unit
    # 遍历所有新文件
    for num in range(file_amount):
        # 计算新文件中第一行在源文件中对应的行号
        start = num * unit
        # 计算新文件中最后一行在源文件中对应的行号
        end = length if length < (num + 1) * unit else (num + 1) * unit
        # 写入新文件，文件名最好加上绝对路径
        with open(str(num + 1) + '.txt', 'w+') as f:
            # 遍历新文件的所有行
            for i in range(start, end):
                # 把列表中的数据写入新文件
                f.write(wordlist[i])

if __name__ == '__main__':
    split()